#medidas de ocupación

Aprendizaje online en MDPs con transiciones y pérdidas adversariales parciales

Descubre nuevos algoritmos para MDPs con transiciones adversariales que logran regret sublineal. Basados en medidas de ocupación condicionadas.

2026-06-02 · 2 min

La auditoría de políticas casi óptimas puede ser exponencialmente difícil

Descubre por qué auditar políticas casi óptimas en RL puede ser exponencialmente difícil. Analizamos cotas inferiores de consulta y la capacidad Rashomon.

2026-06-02 · 2 min